Shikra-Unleashing Multimodal LLM’s Referential Dialogue Magic
论文名称:Shikra: Unleashing Multimodal LLM’s Referential Dialogue Magic
摘要
- 在人类对话中,个体可以在场景中指明相关区域,同时与他人交流。相应地,对方可以根据需要引用特定区域进行回应。这种自然的指代能力在当前的多模态大型语言模型(MLLMs)中仍然缺失。
- 本文提出了一个名为 Shikra 的 MLLM,能够处理自然语言中的空间坐标输入和输出,无需额外的词汇表、位置编码器、预/后检测模块或外部插件模型,所有输入和输出都以自然语言形式呈现。
- 指代对话是各种视觉 - 语言(VL)任务的超集。Shikra 能够自然地处理与位置相关的任务,如 REC 和 PointQA,以及传统的 VL 任务,如图像字幕和 VQA。
介绍与相关工作
主要介绍了指代对话。
位置表示
将兴趣区域输入到模型中呈现了各种方法。一些方法直接将裁剪的图像补丁与原始图像作为模型输入进行连接。还有一些方法使用 0/1 掩码或高斯图输入与原始图像一起,以强调用户兴趣的区域。一些方法首先将点和框编码为位置编码,然后将它们添加到中间特征或学习到的查询中。输出兴趣区域是一种高度集中的技术,存在许多定位范式。基于锚点的方法利用预定义的滑动窗口和提议候选区域进行分类,例如,Fast R-CNN。一些单阶段方法去除锚点,直接回归四个值用于边界框坐标,例如,FCOS。一些方法采用一对一的标签分配将目标检测发展为端到端的方式,例如,DETR 和 POTP。一个有趣的流派是,它将检测任务形式化为序列生成任务。它希望图像的空间位置在 1,000 个箱中,并使用 1,000 个词汇表来表示它。对于检测,Pix2seq 以自回归的方式对坐标词汇表进行分类。在 Pix2seq 之后,几种方法,例如 OFA、Unified-IO、UniTab、GIT 和 VisionLLM 引入了类似的坐标词汇表以及语言词汇表用于目标检测和 REC 任务。不同地,Shikra 将位置输入/输出制定为最自然和灵活的语言形式。
还有在自回归模型中实现检测对象的方法,引入了额外的词汇表(如 <bin_0>
, …, <bin_100>
)来表示空间离散化图像中的坐标。实验显示,直接使用数字更加直观,但是当框太多时,会导致计算成本增加。